class: center, middle, inverse, title-slide # Multilevel analyse ##
Metode 3
.white[Link til slides: kortlink.dk/2acds]
### Søren Damsbo-Svendsen
.white[sdas@ifs.ku.dk]
### Institut for Statskundskab
Københavns Universitet ### Uge 11 --- # Oversigt <table style="line-height: 100%; font-size: 16px; margin-left: auto; margin-right: auto;" class="table table-striped table-hover table-condensed table-responsive"> <thead> <tr> <th style="text-align:center;"> Uge </th> <th style="text-align:center;"> Holdtime </th> <th style="text-align:left;"> Emne </th> <th style="text-align:center;"> Øvelsesopgave </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 6 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kvantitativ indholdsanalyse </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:center;"> 7 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Diskursanalyse I </td> <td style="text-align:center;"> 2 </td> </tr> <tr> <td style="text-align:center;"> 8 </td> <td style="text-align:center;"> 25-26 februar 2021 </td> <td style="text-align:left;"> Diskursanalyse II </td> <td style="text-align:center;"> 3 </td> </tr> <tr> <td style="text-align:center;"> 9 </td> <td style="text-align:center;"> 04-05 marts 2021 </td> <td style="text-align:left;"> Interaktioner og modelspecifikation </td> <td style="text-align:center;"> 4 </td> </tr> <tr> <td style="text-align:center;"> 10 </td> <td style="text-align:center;"> 11-12 marts 2021 </td> <td style="text-align:left;"> Logistisk regression </td> <td style="text-align:center;"> 5 </td> </tr> <tr> <td style="text-align:center;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> 11 </td> <td style="text-align:center;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> 18-19 marts 2021 </td> <td style="text-align:left;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> Multilevel analyse </td> <td style="text-align:center;font-weight: bold;color: white !important;background-color: #8b2325 !important;"> 6 </td> </tr> <tr> <td style="text-align:center;"> 12 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kausal inferens I: Kausalitet og instrumentvariable (IV) </td> <td style="text-align:center;"> 7 </td> </tr> <tr> <td style="text-align:center;color: grey !important;"> 13 </td> <td style="text-align:center;color: grey !important;"> </td> <td style="text-align:left;color: grey !important;"> PÃ¥skeferie </td> <td style="text-align:center;color: grey !important;"> </td> </tr> <tr> <td style="text-align:center;"> 14 </td> <td style="text-align:center;"> 08-09 april 2021 </td> <td style="text-align:left;"> Kausal inferens II: Paneldata </td> <td style="text-align:center;"> 8 </td> </tr> <tr> <td style="text-align:center;"> 15 </td> <td style="text-align:center;"> 15-16 april 2021 </td> <td style="text-align:left;"> Kausal inferens III: Eksperimentelle designs </td> <td style="text-align:center;"> 9 </td> </tr> <tr> <td style="text-align:center;"> 16 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kausal inferens IIII: Regression Discontinuity (RD) </td> <td style="text-align:center;"> 10 </td> </tr> <tr> <td style="text-align:center;"> 17 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Social Data Science: Big Data </td> <td style="text-align:center;"> 11 </td> </tr> <tr> <td style="text-align:center;"> 18 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Process tracing </td> <td style="text-align:center;"> 12 </td> </tr> <tr> <td style="text-align:center;"> 19 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Kriterier for god videnskab </td> <td style="text-align:center;"> </td> </tr> <tr> <td style="text-align:center;"> 20 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Opsamling/spørgetime </td> <td style="text-align:center;"> </td> </tr> <tr> <td style="text-align:center;"> 23 </td> <td style="text-align:center;"> </td> <td style="text-align:left;"> Aflevering af skriftlig hjemmeopgave (07 juni 2021) </td> <td style="text-align:center;"> </td> </tr> </tbody> </table> --- # Data - Mange supergode multinationale datasæt frit tilgængelige, herunder European Social Survey og World Values Survey - Lovede Carolin at vise, hvordan man kan merge to datasæt - Hvordan man merger individdata med landedata → --- ## Hvordan man merger individdata med landedata: *Do-fil* <img src="data:image/png;base64,#media/merge_do.png" width="3763" style="display: block; margin: auto auto auto 0;" /> --- ## Hvordan man merger individdata med landedata: *Resultat* <img src="data:image/png;base64,#media/merge_result.png" width="2341" style="display: block; margin: auto;" /> --- # Recap fra sidste gang - Vi bruger **logistisk regression** i stedet for OLS, **nÃ¥r Y er binær**, pga. OLS' problemer med funktionel form (linearitet), fejlled, absurde sandsynligheder mv. - I logistisk regression er der ikke kun én effekt af X → Y. Effekten afhænger af, hvor pÃ¥ X-aksen, vi stÃ¥r - **Beta-koefficienterne** ("effekterne") angiver effekten af, at X vokser med +1 pÃ¥ *den naturlige logaritme til oddset for, at Y = 1* (fx at en person stemmer personligt) - umuligt at forstÃ¥ intuitivt - **odds ratio** er ikke meget bedre - Fortolker vha. tricks - **Average Marginal Effect** (AME): Den marginale effekt X → P(Y=1) for *alle niveauer af X* - opsummeret i et gennemsnit - **Marginal Effect at the Mean** (MEM): Den marginale effekt X → P(Y=1) i *et bestemt punkt* pÃ¥ X-aksen - typisk gennemsnittet af X - **Forudsagte sandsynligheder**: Sandsynligheden for Y=1 for *alle niveauer af X* - "S-kurven" --- <!-- - "Multilevel analysis can be seen as a generalization of OLS regression to accommodate the complexities of estimating regression models with two or more levels" (197) - Data! Smart. World values survey. European social survey. - Merging data ... brief! - Rule of thumb: 10 obs per indep. (level 2) - Bruges nÃ¥r data har en klar hierarkisk struktur - eller rettere nÃ¥r populationen har det. Eller: NÃ¥r vi vil undersøge effekten af level 2-variable (foruden level 1-variable) pÃ¥ en level-1 afhængig var (Y). ... Eller: NÃ¥r vi arbejder med multilevel-teorier/hypoteser. - Nævn fixed effects med klyngerobust stdfejl. --> # Dagens program - Multilevel analyse - nyt emne - Hvad er det, hvornÃ¥r og hvorfor bruger vi det? - Hvordan udfører vi det i Stata og fortolker output? Eksempel fra Mehmetoglu & Jakobsen (2016) - Øvelsesopgaver i Stata (sammen - sÃ¥ meget vi nÃ¥r) --- # Dagens formÃ¥l - ForstÃ¥ multilevel-problemer og analyse - Være bevidst om, hvilke problemer multilevel analyse afhjælper - Hvilke muligheder er der, hvilke valg skal man træffe? - Lære hvordan man udfører og fortolke i Stata --- # Pensum Hox, J. J. (2010). *Multilevel analysis: techniques and applications* (2. edition). Routledge. **Kapitel 1** Mehmetoglu, M., and T. G. Jakobsen. (2016). *Applied statistics using Stata: a guide for the social sciences*. Sage. **Kapitel 9**. --- # Begreber - Level 1 og level 2 --- # Hvad er multilevel analyse? - Endnu en udvidelse af OLS - Eksempler pÃ¥ data, hypoteser? -- **Multilevel forskning** > "individuals and the social groups are conceptualized as a __hierarchical system of individuals nested within groups__, with individuals and groups defined at separate levels of this hierarchical system. Naturally, such systems can be observed at different hierarchical levels, and variables may be defined at each level. This leads to research into the relationships between __variables characterizing individuals and variables characterizing groups__, a kind of research that is generally referred to as __multilevel research__" .right[(Hox, 2010, p. 1)] -- **Multilevel problem** > "A multilevel problem is a problem that concerns the __relationships between variables that are measured at a number of different hierarchical levels__" .right[(Hox, 2010, p. 4)] --- # Hvad er multilevel analyse? - Hvordan adskiller det sig fra andre typer kvantitativ analyse, vi kender? - Giv et eksempel pÃ¥ data med multilevel-struktur - Mere end udbygning af (unilevel) regressionsanalyse - Flere niveauer - Hierarki af enheder, "nested within..."" - Kendte eksempler: Individer inden for grupper (f.eks. lande/kommuner) og tidslige observationer inden for enheder (fx lande-Ã¥r = paneldata) - The lowest level (level 1) is usually defined by the individuals. - Level 1 (laveste), 2, 3, ... (teoretisk er der ingen grænse, men i praksis bliver det hurtigt vanskelligt. Der skal være en god grund til at arbejde med mere end to niveauer). -- **Find et eksempel pÃ¥ et multilevel problem (tænk pÃ¥ den virkelige verden). Behøver ikke være praktisk muligt.** ??? Husk paneldata --- # (Dis)aggregation - Flytte variable mellem niveauer (mÃ¥lt pÃ¥ et niveau → repræsenteret/analyseret pÃ¥ et andet niveau) - **Aggregation**: variables at a lower level are moved to a higher level, for instance by assigning to the schools the school mean of the pupils’ intelligence scores. - **Disaggregation** means moving variables to a lower level, for instance by assigning to all pupils in the schools a variable that indicates the denomination of the school they belong to. - PÃ¥ hvilket niveau "stÃ¥r" vi? PÃ¥ hvilket niveau er variablen mÃ¥lt? --- # Den dÃ¥rlige tilgang til multilevel analyse 1. Find ud af, pÃ¥ hvilket niveau vi er interesserede i at forklare et outcome. Typisk eksempel: Individ (fx hvem stemmer vil individet stemme pÃ¥) 2. Flyt alle relevante variable med disaggregation (eller aggregation) til dette niveau. 3. Lav almindelig multivariat regressionsanalyse (eller andet) med brug af alle variable uden at skelne - Antager (som regel) at alle individer er uafhængige - Antager derfor ogsÃ¥ at at den disaggregerede data faktisk er mÃ¥lt (uafhængigt) for det pÃ¥gældende individ --- # Hvorfor er den dÃ¥rlige tilgang dÃ¥rlig? - NÃ¥r variable disaggregeres, sÃ¥ der er en værdi per individ (laveste niveau), bliver disse værdier, som jo stammer fra et mindre antal "super-units" (overenheder), **blæst op** i den forstand, at det ligner, der er mange flere observationer. - Og omvendt: NÃ¥r man aggregerer mister man en masse information (variation) og dermed power (svagere tests → mindre sandsynlighed for at finde effekter, der ellers i virkeligheden er der) - NÃ¥r man bruger den klassiske (dÃ¥rlige) tilgang, vil almindelige statistiske tests tro, det er uafhængig information og derfor give en kunstigt høj sandsynlighed for (fejlagtig) statistisk signifikans. -- ## Derudover fortolkning/konklusioner/inferens: - "the fallacy of the wrong level": NÃ¥r man analysere data pÃ¥ et niveau og drager konklusioner pÃ¥ et andet - Ecological fallacy: Analysere et højere niveau og fortolke pÃ¥ lavere niveau (fx nÃ¥r man analyserer landedata og konkluderer om enkeltindividerne). - Atomistic fallacy: NÃ¥r man formulerer konklusioner pÃ¥ et højere niveau end det analyserede - Relateret til Simpson's paradoks: NÃ¥r man "pooler" (samler) data fra (substantielt) forskellige populationer og analyserer dem, som om de var en stor samlet population. - Detaljerne er komplicerede og har mest af alt noget at gøre med korrelation vs. kausalitet, spuriøsitet osv. - Take-away: Pas pÃ¥ med at konkludere pÃ¥ andre niveauer end det mÃ¥lte/analyserede --- # En bedre tilgang - NÃ¥r man har et reelt **multilevel problem**, er alle niveauer vigtige - (Dog: Ofte en afvejning af kompleksitet og korrekthed. Kan det forsimples til et single-level problem uden større tab?) - Derfor → eksplicit modellering af flere niveauer - Bemærk: Typisk er der empirisk set fokus pÃ¥ en afhængig variabel pÃ¥ det niveau (fx individet). - To logikker (grunde til at tænke i multilevels): 1. Vi vil gerne kvantificere indflydelsen fra andre niveauer 2. Vi vil gerne kontrollere for de andre niveauer, sÃ¥ vores analyse pÃ¥ dette niveau bliver bedst mulig --- class: title-slide, center, middle # Stata og fremgangsmÃ¥de med eksempler --- # Multilevel analyse i Stata > **mixed Y_lvl1 || ID_lvl2:** (*Null-model*) > **mixed Y_lvl1 X1_lvl1 X2_lvl1 X3_lvl1 X4_lvl2 X5_lvl2 || ID_lvl2:** -- - **ID_lvl2** er en variabel, der identificerer grupperne, fx *landenavn*. Husk kolon i enden af **ID_lvl2:** - **_lvl1** og **_lvl2** indikerer, hvilket niveau variablen hører til i eksemplet. *Stata finder selv ud af dette* i praksis! - Eventuelle *random effects* (lvl1-X'er fra venstresiden af **||**) tilføjes efter **ID_lvl2:** -- **Options** - Nogle tilføjer "**ml variance**", som specificerer, at modellen skal fittes med **maximum likelihood estimation**, og at vi vil se **niveau-opdelingen af variansen**. Begge dele er **standard**, hvorfor man ikke behøver specificere det. - NÃ¥r man inkluderer en eller flere *random effects*, anbefaler Mehmetoglu & Jakobsen, at man tilføjer **cov(unstructured)**, sÃ¥ modellen bliver uafhængig af variabel-skala (2016, p. 212) --- # FremgangsmÃ¥de Vi vil estimere effekten af nogle uafhængige variable pÃ¥ niveau 1 - laveste niveau, samme som den afhængige variabel - **og pÃ¥ niveau 2 (gruppeniveau)**. Substantielt set er vi interesserede i **indflydelsen fra konteksten (niveau 2)** pÃ¥ grund af vores problemformluering, teori og/eller hypoteser -- ## Typisk fremgangsmÃ¥de 1. Lav tom ("Null") model, der alene skelner mellem niveauerne 2. Tilføj uafhængige **niveau 1**-variable 3. Tilføj uafhængige **niveau 2**-variable 4. Tilføj evt. **random effects** for en eller flere uafhængige niveau 1-variable 5. Tilføj evt. en **interaktion** pÃ¥ samme niveau eller cross-level 6. **Fortolk** pÃ¥ helheden, men især pÃ¥ de "fulde" modeller --- # 1. Lav tom ("Null") model **Eksempel fra Mehmetoglu & Jakobsen, 2016, pp. 201ff** .left-column[ **mixed political_trust || country:** Giver os bl.a. antal **observationer** per niveau og **gennemsnitlig tillid** (*_cons*) Desuden **opdelingen af den uforklarede varians** i tillid pÃ¥ gruppeniveau, *var(_cons)*, og individniveau, *var(Residual)* ] .right-column[ <img src="data:image/png;base64,#media/mehmet1.png" width="3016" style="display: block; margin: auto;" /> ] --- # 1. Lav tom ("Null") model **Eksempel fra Mehmetoglu & Jakobsen, 2016, pp. 201ff** .left-column[ Hvor stor en andel af variansen i tillid tilskrives **gruppeniveauet** (hvor stor er VPC/ICC)? `\(\frac{11.9}{11.9+35.8}\)` *Tommelfingerregel*:<br>Min. 5 % før niveau 2 er relevant Kan det betale sig at fortsætte med multilevel model? ] .right-column[ <img src="data:image/png;base64,#media/mehmet1.png" width="3016" style="display: block; margin: auto;" /> ] ??? VPC/ICC ≈ 24.9 % Kan ogsÃ¥ findes med *estat icc* --- # 2. Tilføj uafhængige niveau 1-variable .left-column[ **mixed political_trust woman age unemployed eduyrs || country:** PÃ¥virker uddannelse (X4) politisk tillid (Y)? Er den uforklarede varians i tillid faldet? Markant? ] .right-column[ <img src="data:image/png;base64,#media/mehmet2.png" width="2968" style="display: block; margin: auto;" /> ] --- # 2. Tilføj uafhængige niveau 1-variable .left-column[ PÃ¥virker uddannelse (X4) politisk tillid (Y)? *Ja (p=0.000). For hvert Ã¥r vokser tilliden med 0.09* Er den uforklarede varians i tillid faldet? Markant? *Faldet marginalt, men stort set uændret. De nye variable (den nye model) har sÃ¥ledes ikke megen forklaringskraft* ] .right-column[ <img src="data:image/png;base64,#media/mehmet2.png" width="2968" style="display: block; margin: auto;" /> ] --- # 3. Tilføj uafhængige niveau 2-variable .left-column[ **mixed political_trust woman age unemployed eduyrs GDPcapita1000 || country:** PÃ¥virker uddannelse (X4) stadig politisk tillid (Y)? Hvad kan vi sige om **effekten af BNP**? Er den uforklarede varians i tillid faldet denne gang? Markant? ] .right-column[ <img src="data:image/png;base64,#media/mehmet3.png" width="2973" style="display: block; margin: auto;" /> ] --- # 3. Tilføj uafhængige niveau 2-variable .left-column[ Effekten af uddannelse (X4) er praktisk talt uændret NÃ¥r BNP/cap. vokser med $1000, øges hvert lands gennemsnitlige tillid med 0,14 PÃ¥ landeniveau er den uforklarede varians [*var(_cons)*] faldet markant fra 11,9 til 4,3 `\(\frac{11.9-4.3}{11.9}≈0,64\)`<br>→ ca. 64 % af gruppe-variansen kan forklares vha. BNP ] .right-column[ <img src="data:image/png;base64,#media/mehmet3.png" width="2973" style="display: block; margin: auto;" /> ] --- # 4. Tilføj evt. **random effects** for niveau 1-variable .left-column[ **mixed political_trust woman age unemployed eduyrs GDPcapita1000 || country: eduyrs** Hvilken uafhængig variabel (fra hvilket niveau) er tilføjet som *random effect*? Hvad vil det sige? Hvad kan vi sige om dens effekt pÃ¥ tillid? ] .right-column[ <img src="data:image/png;base64,#media/mehmet4.png" width="2252" style="display: block; margin: auto;" /> ] --- # 4. Tilføj evt. **random effects** for niveau 1-variable .left-column[ Vi har tilføjet random effects for **uddannelse** (niveau 1) Vi accepterer, at uddannelse kan pÃ¥virke tillid fundamentalt forskelligt i forskellige lande. Derfor beregner vi effekten for hvert land. Koefficienten for *eduyrs* er gennemsnitseffekten NÃ¥r et individs uddannelsesniveau vokser med +1, øges tilliden *gennemsnitligt set* med 0,086 ] .right-column[ <img src="data:image/png;base64,#media/mehmet4.png" width="2252" style="display: block; margin: auto;" /> ] --- # 5. Tilføj evt. **interaktion** .left-column[ **mixed political_trust woman unemployed eduyrs GDPcapita1000 i.Nordic##c.age || country:** // obs! random effects for age? Er det en alm. same-level eller en cross-level interaktion? Er effekten af alder betinget af, om landet er nordisk? ] .right-column[ <img src="data:image/png;base64,#media/mehmet5.png" width="2603" style="display: block; margin: auto;" /> ] --- # 5. Tilføj evt. **interaktion** .left-column[ Er det en alm. same-level eller en cross-level interaktion? *Cross-level! Nordic er en dummy, der angiver om landet (gruppen) er et af de nordiske lande* Er effekten af alder betinget af, om landet er nordisk? *Ja! Effekten af alder er -0,0262 mindre i nordiske lande (p=0,000) - og den er 0,0097 i ikke-nordiske lande* ] .right-column[ <img src="data:image/png;base64,#media/mehmet5.png" width="2603" style="display: block; margin: auto;" /> ] --- # 5. Tilføj evt. **interaktion** .left-column[ Er det en alm. same-level eller en cross-level interaktion? *Cross-level! Nordic er en dummy, der angiver om landet (gruppen) er et af de nordiske lande* Er effekten af alder betinget af, om landet er nordisk? *Ja! Effekten af alder er -0,0262 mindre i nordiske lande (p=0,000) - og den er 0,0097 i ikke-nordiske lande* ] .right-column[ <img src="data:image/png;base64,#media/mehmet6.png" width="1733" style="display: block; margin: auto;" /> ] --- # Udvidelser - **Logistisk multilevel regression** - → brug det kun, hvis det er nødvendigt - **Multilevel-model med tre niveauer** - → brug det kun, hvis det er nødvendigt - **Cross-classified multilevel-model** - ikke en klar hierarkisk struktur, men i stedet individ indlejret i mere eller mindre sideordnede kontekster - → brug det kun, hvis det er nødvendigt - **Vægtning af observationer** - kan give mening, nÃ¥r man arbejder med survey-data - → brug det kun, hvis det er nødvendigt --- class: title-slide, center, middle # Øvelsesopgaver i Stata --- # Antagelser - **Ikke pensum!** - I princippet de samme antagelser som OLS - *gange to* - linearitet, uafhængige obs., homoskedasticitet, normalfordelte fejlled etc. skal i princippet være opfyldt pÃ¥ hvert niveau - Det meste er svært-til-umuligt at teste - Multikollinearitet → tjek evt. med VIF efter alm. OLS - Indflydelsesrige outliers → tjek evt. grafisk for niveau 2 - er der lande med meget ekstreme værdier pÃ¥ Y eller meget ekstreme sammenhænge mellem X og Y? - Mere er ikke nødvendigt, men problematikken kan eventuelt nævnes --- # Dagens pointer --- background-color: #FEFFA2 # Næste gang .pull-left[ - Vi starter pÃ¥ fire uger med **kausal inferens** - begynder at tage kausalitets-spørgsmÃ¥let alvorligt frem for blot at antage "*effekter*" for eksemplets skyld - Næste uge - **Kausal inferens I: Kausal inferens og instrumentvariable** - ingen holdtime - derefter **PÃ…SKEFERIE** - Vi ses igen efter pÃ¥ske til Kausal inferens II: Paneldata ] .pull-right[ <iframe src="https://giphy.com/embed/54WycskplA1OlPc5cd" width="480" height="270" frameBorder="0" class="giphy-embed" allowFullScreen></iframe> ] --- class: center, middle background-color: #FEFFA2 # Tak for i dag! <iframe src="https://giphy.com/embed/kBrCMKXl2Kz4kUGTr1" width="480" height="320" frameBorder="0" class="giphy-embed" allowFullScreen></iframe>